Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Алгоритми навчання з підкріпленням.

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
Не вказано
Факультет:
Не вказано
Кафедра:
Кафедра електронних обчислювальних машин

Інформація про роботу

Рік:
2005
Тип роботи:
Лабораторна робота
Предмет:
Теорія колективної поведінки інтелектуальних систем
Група:
КІ-4

Частина тексту файла

Міністерство освіти і науки України Національний університет „Львівська політехніка” Кафедра електронних обчислювальних машин Звіт про виконання лабораторної роботи № 4 з курсу „ Теорія колективної поведінки інтелектуальних систем ” Тема: Алгоритми навчання з підкріпленням Виконав: ст. гр. КІ-4. Львів – 2005 Мета: Реалізувати вказані алгоритми навчання з підкріпленням та дослідити їх поведінку. Загальні відомості Розглядаються два алгоритми навчання з підкріпленням (reinforcement learning).   1. Жадібний алгоритм RL (greedy RL). Для кожної дії a на кожному кроці визначається її вага Qt(a) = sa / ka, де t – номер часового кроку, ka – кількість реалізацій дії a (скільки разів дія a була обрана до моменту часу t), sa – сумарний виграш, отриманий завдяки реалізації дії a. [1.0. Перша дія обирається випадково.] 1.1. Реалізувати обрану дію. 1.2. Отримати відгук середовища (виграш/програш). 1.3. Для всіх дій підрахувати значення Qt(a). 1.4. Обрати дію ai, для якої Qt(ai) = max Qt(a), перейти до п.2.1. 2. e-жадібний алгоритм RL (e-greedy RL). [2.0. Перша дія обирається випадково.] 2.1. Реалізувати обрану дію. 2.2. Отримати відгук середовища (виграш/програш). 2.3. Для всіх дій підрахувати значення Qt(a). 2.4. З ймовірністю (1-e) обрати та реалізувати дію ai, для якої Qt(ai) = max Qt(a). 2.5. З ймовірністю e обрати дію рівновипадково, перейти до п.3.1. В процесі взаємодії алгоритму RL з середовищем визначаються три залежності: Залежність біжучого виграшу від часу: R(t). Залежність біжучого сумарного виграшу від часу: R(t) = Rt. Залежність біжучого проценту виграшних дій від часу (середнє значення виграшу, що припадає на одну дію): Ps(t) = Rt / t. Завдання 1. Скласти програму наступного змісту (алгоритм роботи програми): Вибрати тип середовища (env_model) Ініціалізувати середовище (випадкова ініціалізація) Вибрати алгоритм навчання з підкріпленням. Відкрити файл для збереження результатів Цикл від 1 до T (індекс t) Отримати код дії, яку обрав алгоритм навчання з підкріпленням Отримати відгук середовища на цю дію (біжучий виграш) Модифікувати значення сумарного виграшу Модифікувати значення проценту виграшних (правильних) дій Запам’ятати отриманні значення у файлі результатів Перейти на п.4 Закрити файл результатів. 2. Реалізувати два алгоритми навчання з підкріпленням: 2.1. Жадібний алгоритм RL (greedy RL). 2.2. e-жадібний алгоритм RL (e-greedy RL). 3. Дослідити поведінку алгоритмів навчання з підкріпленням в кожному з трьох середовищ (статичне детерміноване, динамічне детерміноване, стаціонарне випадкове), отримавши для кожного випадку вказані залежності від часу. 4. Порівняти отримані залежності та зробити висновки. Текст програми /* Copyright (c) 2005 alb. All Rights Reserved. * Computer Engineering Department * Lviv Polytechnic National University * =============================================== * Multiagent Systems. Lab work 04. * Agent design II (simple Reinforcement Learning (RL) methods) * Here two types of RL algorithms (simple Action-Value Methods) are implemented: * - greedy RL, * - epsilon greedy RL. * With given * set of available actions D={1,2} and * set of possible responses R={0,1} * 1 -> reward (win) * 0 -> punishment (loss) * you must investigate behaviour of these RL algorithms * over T interaction in specified environments. */ #include "stdafx.h" #define NACTION 3 int t; // current time step int T = 100; // maximum number of time steps (interactions with environment) int env_model; // environmetn code: // 1 - envoronment with static response // 2 - envoronment with predetermined dynamic response // 3 - envoronment with stationary random response: // binary bandit task (n-armed bandit, n=2) // variables for environment's parameters int env1; // winning action code (env_model = 1) int env2_action1; // first winning action code (env_model = 2) int env2_action2; ...
Антиботан аватар за замовчуванням

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини